扩容硬件资源-分布式存储场景
场景说明
当遇到服务器需要关机或者更换服务器硬件资源,使用分布式存储的场景,例如扩容内存条等。
风险评估
需要提前将对应服务器上的云主机迁移至其他节点,保障业务持续性。
准备工作
1)规划变更时间
在正式进行变更操作之前,需要和客户的运维人员沟通好变更窗口期,尽量将变更窗口期设定为可能对业务影响最小的时间段。
2)状态检查
在正式进行变更操作之前,需要对云平台和存储等资源进行健康检查,确保当前环境是正常状态。
3)资源准备
在正式进行变更操作之前,根据服务器需要更换的硬件(例如需要扩容内存条),提前准备好相应的内存条硬件资源。
操作步骤
1)云平台热迁移云主机
关闭全局设置中,“云主机高可用全局开关”。
将待变更的物理机上的所有云主机热迁移至集群内的其他物理机上,确保业务的正常运行。
登录云平台,选择“资源中心”中“硬件设置”,左侧选择“物理机”,点击需要变更的物理机,进入“关联资源”,即可查看到当前物理机上运行的云主机。
选择对应云主机,“更多操作”中选择“迁移”,并选择“更改物理机”进行迁移。推荐勾选“启用自动收敛模式”以确保迁移任务能成功执行。
逐一将待变更物理机上的云主机前部迁移完成后。SSH登录至待变更的物理机上,使用 virsh list 命令确认输出是否为空,是否还存在云主机或者云路由器。
确认全部迁移完成后,在“物理机”页面,“更多操作”中选择“进入维护模式”。等待物理机的状态从“启用”,变更为“进入维护模式”。
2)存储禁止数据恢复
为了确保在变更期间降低由数据重平衡机制带来的IO压力,需要对分布式存储设置“禁止数据恢复”以减少整个过程中的数据重平衡次数。
登陆存储平台,点击右上角的设置按钮,点击“禁止数据恢复”选项
弹出再次确认界面,点击“禁止”开启禁止数据恢复设置。
进入“禁止数据恢复”的状态后,会显示出如截图的红色闪烁状态。
3)服务器关机,扩容硬件
SSH登录至待变更的服务器系统,安全关闭待变更的服务器,待服务器停止运行后,可以执行下电和硬件变更操作。
sync && sync && poweroff
4)服务器开机
当硬件变更完成后,服务器上电开机,并进行网络检查,确保管理网络,存储网络可以正常通信,节点状态检查。
zs-show-network
5)存储开启数据恢复
登录存储平台,点击右上方的设置按钮,点击“允许数据恢复”,会弹出再次确认的窗口,点击“开启”后,存储池会进行数据恢复,需要等待集群数据状态恢复至100%(为了避免对业务造成影响,推荐选择低速恢复)。确保当前的存储环境已经恢复正常。
6)云平台恢复
登录云平台页面,点击“资源中心”中的“硬件设置”,左侧选择“物理机”,选择对应的物理机,在“更多操作”中选择“启用”。等待物理机连接成功。
7)扩容完成
若需要继续变更其他的物理机,则参考本章的操作步骤中1~6的步骤。
若变更已经完成,确认环境正常后打开“云主机高可用全局开关”。扩容过程结束。